2024UF大会智能交互峰会演讲回顾｜张克俊《跨模态体验计算与设计》

2024年11月01日，第20届User Friendly国际用户体验大会在深圳圆满落幕。在1日下午的议程中，大会开设4个行业平行峰会，其中在智能交互峰会上，我们有幸邀请到了来自浙江大学国际设计研究院副院长张克俊教授为我们带来了一场关于“跨模态体验计算与设计”的精彩演讲。

主讲嘉宾简介

张克俊教授现任浙江大学国际设计研究院副院长，计算机技术与工程国家级实验教学示范中心主任，负责10余项国家自然科学基金、国家重点研发计划课题等项目，曾获教育部高等学校科学研究优秀成果二等奖、世界人工智能大会SAIL奖。

趋势引导演讲｜精彩瞬间

我今天分享的主题是《跨模态体验计算与设计》。
互联网、移动计算、超级计算、穿戴设备、物联网、云计算、人工智能等技术的发展，推动信息环境巨变。数字空间、物理世界与人类社会迅速融合———三元世界。

马克思、恩格斯提出生产力和生产关系时，那时候的劳动资料可能就是一把锄头，所以它不可能被当成劳动者，而今天的大模型在某种意义上是“劳动者”，是一个双引号的“人”，所以我们对相应的生产关系也要进行某种意义上的重新认识。

多模态侧重于融合和利用不同模态的数据，例如文本处理，图像、视频处理等。而跨模态则是不同数据之间的迁移、转换，如用一种模态映射另外一种模态，形成双重的反馈。多模态和跨模态的融合是AIGC发展非常重要的趋势和方向。

数字内容创作——跨模态体验计算与设计

以传统视频和现在AIGC做视频的区别为例，我们可以看到：传统视频制作链路长，涉及众多角色，且高度依赖人工，耗时费力且难以实现规模化生产。AIGC 技术，不仅利用人工智能算法实现了文本、图像、音频、视频等内容的自动生成，而且打造的对话式人机交互形式，极大提升了创作效率与用户体验。

最后，以情感作为主线与大家分享我们实验室做的一些实践与探索。
第一个是跑步生成音乐的产品Stepbeats。它让你跑步时候所听的音乐节奏，跟随你的跑步速度而改变，某种意义上实现了人与音乐的双向沟通。
如果跑步的节奏可以控制音乐的节奏，那么视觉、温度、湿度等环境的变化是不是也可以控制音乐的节奏？我们把视觉信息和听觉信息进行融合，利用情感进行关联匹配，把两种不相关的东西映射到情感这一第三空间中，构建了音感模型，实现了视觉和听觉的关系建模。
设计与计算的融合带来的改变是：既结合了场景，也能用相应的技术让它落地。